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面向 web 图 像 检 索 的 基于 语义 迁移 的 无 监督 深度 险 希 
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摘 要 : 当前 主流 的 Web 图 像 检索 方法 仅 考 虑 了 视觉 特征 ， 没 有 充分 利用 Web 图 像 附 带 的 文本 信息 ， 并 忽略 了 相关 
文本 中 涉及 的 有 价值 的 语义 ， 从 而 导致 其 图 像 表达 能 力 不 强 。 针 对 这 一 问题 ， 提 出 了 一 种 新 的 无 监督 图 像 哈 希 方法 : 
基于 语义 迁移 的 深度 图 像 哈 希 (semantic transfer deep visual hashing，STDVH)。 该 方法 首先 利用 谱 聚 类 挖掘 训练 文本 
的 语义 信息 ; 然后 构建 深度 卷 积 神经 网 络 将 文本 语义 信息 迁移 到 图 像 哈 希 码 的 学 习 中 ; 最 后 在 统一 框架 中 训练 得 到 图 
像 的 哈 希 码 和 哈 项 函数 ， 在 低 维 汉 明 空 间 中 完成 对 大 规模 Web 图 像 数据 的 有 效 检 索 。 通 过 在 Wiki fe MIR Flickr 这 两 
个 公开 的 Web 图 像 集 上 进行 实验 ,证 明了 该 方法 相 比 其 他 先进 的 哈 希 算法 的 优越 性 。 

关键 词 : 语义 迁移 ; 图 像 哈 希 ; Web 图 像 检索 ; 深度 学 习 

中 图 分 类 号 : TP391 doi: 10.3969/j.issn.1001-3695.2018.02.0185 


Unsupervised deep hashing based on semantic transfer for Web image retrieval 
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Abstract: Most existing Web image retrieval approaches only consider visual features. They ignore the valuable semantics 
involved in the associated texts, and fail to take advantages of text. This paper proposed a new unsupervised visual hashing 
approach called semantic transfer deep visual hashing (STDVH) . Firstly, it extracted the semantic information of the training 
text by spectral clustering. Then, it constructed a deep convolutional neural network to transfer the text semantic information 
into the learning of the image hash code. At last, it trained the image hash codes and hash functions in a unified framework, and 
completed the effective retrieval of large-scale image data in low-dimensional Hamming space. Experiments on two publicly 


available image datasets Wiki and MIR Flickr indicate that the proposed approach can achieve superior performance over other 


state-of-the-art techniques. 
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是 一 个 尚未 妥善 解决 的 开放 性 研究 问题 。 不 过 在 大 多 数 实际 的 

CBIR 应 用 中 , 近似 的 检索 结果 可 以 充分 满足 用 户 的 信息 需求 ， 
随 着 社交 媒体 和 移动 计算 技术 的 不 断 进步 ， 在 过 去 的 十 年 。 这 表明 了 近似 最 近邻 检索 的 可 行 性 。 受 这 种 现象 的 启发 ， 近 年 
H, Web 图 像 的 可 用 性 得 到 了 巨大 的 发 展 。 因 此 ， 研 究 智能 区 来 已 有 多 种 索引 方法 被 开发 出 来 , 如 倒 排 文档 所 、 树 结构 B 和 哈 
像 检 索 技 术 越 来 越 受到 信息 检索 和 多 媒体 计算 领域 的 关注 。 特 。 AA, 倒 排 文档 只 能 在 高 维 稀疏 特征 的 索引 方面 表现 良好 饭 。 树 
别 是 基于 内 容 的 图 像 检索 (content-based image retrieval, CBIR) 结构 当 被 索引 的 特征 的 维度 变 高 时 ， 其 性 能 大 大 降低 。 而 且 在 
中 ， 作 为 仅 使 用 视觉 图 像 作为 查询 的 技术 ， 由 于 县 有 广泛 的 应 。” 存储 相应 的 数据 结构 时 ， 倒 排 文 档 和 树 结构 都 会 消耗 大 量 的 内 
前 景 而 变 得 越 来 越 重要 。 存 。 当 图 像 采 集 规模 较 大 时 ， 这 个 问题 就 更 加 严重 。 
为 了 在 海量 的 图 像 集合 上 提供 的 基于 内 容 的 搜索 服 作为 支持 快速 准确 的 图 像 检索 的 新 兴 技 术 之 一 ， 图 像 哈 希 
务 ， 效 率 和 有 效 性 都 是 号 需 研究 的 重要 问题 。 高 效 的 索引 结构 ”算法 在 最 近 十 年 得 到 了 极 大 的 关注 ， 成 为 一 个 非常 活跃 的 研究 
对 于 扩大 大 数据 空间 和 提高 精确 搜索 至 关 重 要 。CBIR 最 简单 ” 领域 。 其 基本 思想 是 将 原始 高 维 视觉 特征 映射 为 在 低 维 汉 明 空 
的 方法 是 将 查询 图 像 与 存储 在 数据 库 中 的 每 个 样本 进行 顺序 比 司 中 的 二 进 制 编码 ， 从 而 可 以 通过 简单 而 有 效 的 位 操作 来 衡量 
较 。 它 的 线性 复杂 度 导 致 在 实际 应 用 中 效率 低 、 可 扩展 性 差 。 像 的 视觉 相似 性 。 一 般 来 说 ， 图 像 哈 希 有 两 个 主要 优点 : a) 
此 外 ， 视 觉 特征 通常 具有 很 高 的 维度 。 如 何 解 决 “ 维 数 灾难 ” 仍 ” ”快速 查询 响应 ， 由 于 按 位 操作 可 以 被 高 效 地 执行 ， 所 以 可 以 快 
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的 存储 。 


然而 由 于 视觉 特征 与 人 类 到 
于 视觉 特 征 的 哈 希 会 缺失 一 定 的 语义 信息 ， 从 1 


的 性 能 。 为 了 丰富 图 像 哈 希 码 的 语义 ， 已 经 应 用 
器 学 习 的 策略 ， 并 提出 了 多 种 哈 希 方案 。 它 们 包括 无 监督 图 
图 像 哈 希 外。 有 监督 和 半 
i 的 语义 判别 能 力 。 但 是 这 两 种 模 
式 在 训练 过 程 中 都 需要 标记 图 像 。 实 际 上 , 这 一 要 求 在 CBIR 可 
足 ， 这 是 因为 在 实际 场景 中 质量 高 的 标记 图 
很 少 ， 而 且 它们 需要 大 量 的 人 力 劳动 和 专家 知识 。 另 一 方 画 
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深度 图 


像 哈 希 的 质量 。 
效 的 无 监督 学 习 方 案 ， 智 能 地 从 相 
语义 到 图 像 哈 希 代码 中 。 

本 文 提 出 了 一 种 新 的 无 监督 


关联 。 因 此 有 必要 考虑 利用 


助 文本 ， 


而 这 种 方式 的 核 ， 


的 文本 标签 或 指 
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关 的 文本 信息 中 提取 和 集成 


图 像 哈 希 方案 ， 称 为 语义 迁移 
像 哈 希 (semantic transfer deep visual hashing, STDVH). 

该 方法 的 关键 思想 是 从 图 像 相 关 文 本 中 
度 学 习 将 语义 迁移 图 像 
STDVH 的 工作 原 


自动 提取 语义 ， 通 过 深 


从 希 码 中 , 从 而 提升 了 图 像 哈 希 的 性 能 。 
里 如 下 : 首先 通过 对 文本 信息 进行 谱 聚 类 获 


取 语 义 ， 并 将 其 迁移 到 后 续 视觉 哈 希 码 的 学 习 中 ;然后 构建 深 
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觉 上 的 相似 性 。 
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希 码 学 习 以 及 语义 迁移 学 习 统一 在 一 个 框架 中 ， 
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经 网 络 模型 来 获取 哈 希 码 ; 最 后 将 语义 迁移 ， 哈 希 码 
ES EE 架 中 ， 从 而 使 得 学 习 到 的 
深度 哈 希 函数 能 够 同时 保存 原始 图 像 对 应 的 语义 信息 及 其 在 视 
通过 哈 希 函数 能 够 获取 数据 库 和 碍 询 的 
像 检 索 。 
本 文 主要 的 贡献 概括 如 下 : 
STDVH 不 仅仅 只 考虑 
本 ， 而 是 专门 利用 
通过 谱 聚 类 得 到 文本 语义 的 聚 类 ， 以 文本 信息 聚 类 结果 和 区 
建立 模型 ， 能 够 将 语义 有 效 地 结合 
STDVH 采用 统一 的 无 监督 学 习 框 架 , 将 


图 像 的 


图 像 特 征 ， 或 是 同时 处 理 图 像 和 文 
文本 信息 的 语义 迁移 学 习 来 辅助 图 像 哈 希 。 
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丛 希 函数 学 习 ， 哈 


Yom, 


(SFVHD 可 以 进 


DI 两 大 类 。 
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机 向 量 ， 


哈 希 方法 之 一 ， 它 基于 来 
将 相 人 1 
面 ， 依 赖 于 数据 的 哈 希 通过 机 器 学 习 方法 基于 底 
特点 来 学 习 哈 希 函 数 。 
的 哈 希 方法 ， 通 过 保留 哈 希 代码 中 图 像 的 相似 性 来 学 习 哈 希 函 
数 。 随 着 哈 希 技术 的 发 展 ， 稀 疏 嵌入 哈 希 外、 基 
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步 分 为 数据 独立 哈 希 四 与 依赖 于 数据 的 哈 希 
部 敏感 哈 希 CLSHO 四 是 最 典型 的 与 数据 无 关 的 
自 例如 标准 高 斯 分 布 等 特定 分 布 的 随 
以 的 点 以 高 概率 地 映射 到 同一 汉 明 空间 。 另 一 方 
导数 据 分 布 的 
是 典型 的 基于 无 监督 学 习 


谱 哈 希 (SHDJE 


于 流 形 的 哈 希 


ma、 基于 深度 学 习 的 


希 码 。 
1.2 多 模 态 图 


多 模 态 图 像 哈 希 中 的 一 种 
综合 多 个 模 态 集成 对 于 全 夯 
ARES HERUM, 


j 来 学 习 3 有效 的 二 进 制 哈 


nas Ue. ) 


像 哈 希 


图 像 形式 可 以 用 文本 形式 来 代替 。 
i 解读 图 像 内 容 并 实现 最 佳 的 学 习 效 
许多 研究 人 员 为 了 不 同 的 目的 而 设计 各 种 考虑 


多 特征 融合 的 方案 来 进行 哈 希 。 例 如 ,多 视图 潜在 哈 希 (MVLH) 
[通过 发 现 多 个 视图 之 间 共 享 的 潜在 因素 ， 将 多 模 态 特征 结合 


到 二 进 制 表示 学 习 中 ， 根 据 每 个 视图 的 重建 误差 来 学 习 多 特征 
融合 的 权重 。 多 视图 对 齐 哈 希 (MVAH) 59 学 习 正 则 化 核 非 负 


单 模 态 和 多 模 态 图 像 哈 希 最 显 着 的 


矩阵 分 解 的 哈 希 码 ， 它 考虑 了 多 个 视觉 特征 的 隐 含 语义 和 联合 


局 限 性 是 它们 只 考虑 


视觉 形态 的 特征 。 


于 语义 上 的 差距 ， 以 低级 视觉 特征 为 特征 


的 图 像 关 系 不 能 


效 地 描述 丰富 的 图 像 语义 ， 从 而 使 得 哈 希 码 


语义 意义 较 少 。 


1.3” 跨 模 态 哈 希 


合 希 的 核心 思想 是 将 异 构 的 模 态 特征 映射 到 共同 的 


在 该 空间 中 计算 相似 度 来 返 忆 


跨 模 态 检 索 结果 。 


跨 模 态 
汉 明 空间 ， 
Zhou 等 人 03] 通 过 采 / 


j 稀 琉 编 码 和 矩阵 分 解 , 提出 了 潜在 语义 稀 


PAA (LSSH)。 


协同 矩阵 分 解 哈 希 〈CMEH) 04 从 一 个 样本 


的 多 个 模 态 使 用 
由 于 跨 模 态 


间 更 多 的 语义 ， 


跨 模 态 哈 希 方法 的 主要 设计 


协同 矩阵 分 解 与 潜在 因子 模型 学 习 哈 希 码 。 
丛 希 的 投影 空间 可 能 嵌入 比 单 模 态 视觉 特 生 
跨 模 态 哈 希 可 以 提高 CBIR 的 性 能 。 但 是 各 种 
标 是 在 不 同 的 模式 下 进行 多 媒体 
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职 神经 网 络 学 习 原 始 图 像 到 文本 的 语义 信息 。 

STDVH 可 以 利用 Web 图 像 中 包括 视觉 与 文本 特征 在 内 的 
多 模 态 数据 进行 训练 ， 而 且 只 需要 图 像 的 视觉 信息 作为 输入 查 
询 。 它 符合 CBIR 的 实际 要 求 ， 即 数据 库 中 的 Web 图 像 通常 附 
带 有 文本 信息 ， 而 用 户 则 不 需要 提供 文本 查询 。 

在 公开 可 用 的 图 像 数 据 库 上 进行 全 面 的 实验 。 结 果 充 分 显 
示 了 STDVH 的 优越 性 ， 并 且 证 明了 STDVH 从 各 个 方面 明显 
胜 过 了 几 种 最 先进 的 基于 内 容 或 跨 模 态 的 哈 希 方法 。 

1 ”相关 工作 
1.1 单 模 态 图 像 哈 希 


根据 如 何 生成 哈 希 函数 的 方法 ， 现 


了 的 单 模 态 图 像 哈 希 


检索 。 它 假定 每 种 涉及 的 模 态 都 对 跨 模 态 检索 有 同样 的 贡献 。 


这 个 假设 使 得 它们 


< 享 相同 的 汉 明 空间 ， 所 以 并 能 够 对 专门 的 


图 像 视 觉 信 息 进 行 有 效 判 别 。 另 外 ， 原 始 图 像 视觉 特征 中 特有 


的 判别 信息 


于 强制 进行 异 构 模 态 的 关联 ， 而 可 能 导致 在 哈 希 


过 程 中 丢失 特色 语义 信息 。 


1 总 结 


表 


了 最 先进 的 哈 希 方法 和 本 文 提出 的 STDVH 的 关 


AME 
键 特征 。 基 于 上 面 的 分 析 ， 可 以 发 现 专门 设计 一 个 智能 哈 希 方 
法 来 有 效 地 利用 相关 的 模 态 (例如 文本 信息 等 ) 来 辅助 图 像 哈 
希 是 非常 重要 的 。 
Al 主要 的 无 监督 图 像 哈 希 和 STDVH 的 特征 
方法 查询 学习 特征 学 习 空 间 语义 增强 CBIR 
单 模 态 图 像 哈 希 视觉 视觉 视觉 否 是 
多 模 态 图 像 哈 希 视觉 视觉 视觉 否 是 
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2 ”基于 语义 迁移 的 无 监督 深度 哈 希 
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基于 STDVH 的 CBIR 系统 框架 

引 离 线 学 习 。 该 部 分 的 目 
同时 生成 查询 图 像 的 哈 希 函数 。 其 包含 三 
对 训练 集中 的 文本 特征 进行 谱 聚 类 ， 利 ) 
增强 图 像 哈 希 码 的 学 习 效果 ;然后 ， 以 训练 集 的 原始 图 
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文本 的 谱 聚 类 结果 
像 为 输 
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dioe web BIER UE T ROGER ER GUAE 


+ E, 
本 文 使 用 谱 聚 类 来 产生 文本 特征 的 语义 信息 。 确 切 地 说 ， 


训练 集中 的 文本 特征 XP = [xD] ， ， 通 过 谱 


C-(c);, ES 


即 语义 信息 。 


S ={s%}， 将 该 相似 矩阵 迁移 到 视 


根据 数据 构建 图 G 


A 


中 c, 表示 第 i 


然后 根据 类 别 和 矩阵 C 生成 文本 村 


边 表示 文本 之 间 的 相似 度 


i AnA 


=(X® E), 


对 于 


聚 类 产生 类 别 和 矩阵 


个 数据 点 的 文本 特征 对 应 的 类 别 ， 


ne 
VANUS 


对 于 训练 集中 的 文本 特征 Xe = (x ]" 


,Ax 为 图 的 几 个 子 集 ， 


这 些 子 集 没有 


哈 希 的 学 习 中 。 


日 似 度量 矩阵 


, ,将 其 分 成 KK 个 类 。 


顶点 表示 各 个 文本 信息 , 带 权 的 


了 让 分 割 的 Cut 最 小 ， 谱 聚 类 便 是 要 最 小 化 下 述 目 标 函 数 : 


cut(Al,A,,.… 


Hp: A, 表示 第 i 个 组 ，A, 表示 A, 的 补 集 ; 


zh A, 组 与 A, 之 间 所 有 边 的 权重 之 和 。 


入 ， 以 文本 信息 谱 聚 类 的 结果 为 输出 构建 卷 积 
整个 网 络 , 得 到 卷 积 神经 网 络 的 倒数 第 三 层 输出 转化 为 


经 网 络 ， 训 
45 1; 
最 后 将 语义 迁移 ， 哈 希 码 学 习 与 哈 希 函数 的 学 习 整 合 在 统一 


练 


IHI 


架 中 ， 从 而 使 得 学 习 到 的 深度 哈 希 函数 能 够 同时 保存 原始 
对 应 的 语义 信息 及 其 在 视觉 上 的 相似 性 。 
b) 在 线 检索 。 提 取 查 询 图 像 ， 利 用 
进 制 码 。 最 后 计算 查询 
以 距离 由 小 到 大 的 顺序 返 
22 ”符号 与 问题 描述 
本 文 使 ) 
表示 向 量 , 和 矩阵 X 的 转 


DS 


LH 


数据 库 图 像 。 


tr(X) RIKERE X 的 迹 ， 贝 尼 乌 斯 范 数 。 


示 符 号 函数 ， 如 果 是 正则 返回 1， 和 否则 返回 -1。 


设 及 对 数据 点 X= fx 六 


KEAR, x 表示 对 应 的 文本 特征 。 


无 监督 图 像 哈 希 的 


Em 


哈 希 函数 将 其 映射 成 二 
像 和 数据 库 图 像 之 间 的 汉 明 距离 ， 


j 粗 体 大 写字 母 来 表示 矩阵 ， 使 用 粗 体 小 写字 母 来 
表示 为 XI ,矩阵 BIG X, 


sgn() 表 


pm=1,2, Jp x? 表示 第 i 


目标 是 学 


习 数 据 库 图 像 X” 的 哈 希 码 Y={y,}" eR^" ,其 中 y,{-11}》 是 
第 i 张 图 片 的 哈 希 码 ， 二 值 哈 希 码 可 以 写 做 
y, SARP) ^ Us Gd), fs Qi, CE, n hod 是 需要 学 
习 的 哈 希 函数 ， 工 是 图 像 哈 希 码 的 长 度 。 


23 语义 学 习 
本 文 将 文本 特征 的 语义 信息 迁移 到 视觉 哈 希 码 的 学 习 中 
以 此 来 增强 视觉 哈 希 的 效果 。 在 STDVH 模型 中 ， 考 虑 到 谱 聚 


类 能 够 在 任意 形状 的 样 


本 空间 上 聚 类 ， 而 且 收 全 于 全 局 最 优 ， 


是 按照 式 (2) 


用 邻接 和 矩阵 M={ 


计算 。 


Kr. 是 一 个 超 参数 ; 
自身 相似 度 的 影响 , 将 对 角 线 上 的 元 素 赋值 为 0, 即 mi =0 
阵 M 按照 式 G) M 


除 
为 了 使 谱 聚 类 效果 更 好 ， 
Wi. 


-COS (x? X? y 


1« z 
,Ax) s 52,1A.A). 
i=l 


m,|sis N,1< js NJ 表示 图 , 其 相似 性 


(1) 


T(A,. A) K 


Q) 


cose .ww 表示 余 弦 距 离 。 为 了 排 


将 相似 度 矩 


Mm, < Ai) - 0, 


为 J 


其 中 : 4 为 稀 玻 度 ， 克 表示 所 有 元 素 的 平均 值 。 
使 某 个 单 节点 不 会 更 容易 被 剔除 ， 本 文 考虑 一 个 归 一 


G) 


化 的 对 角 和 矩阵 D， 对 角 线 上 元 素 是 相似 度 和 矩阵 一 行 ( 列 ， 因 为 
对 称 行列 一 样 ) 所 有 元 素 的 和 ， 即 
DCD= 5 m,. (4) 
然后 计算 归 一 化 拉 普 拉 斯 图 矩阵 工 ; 
L = DMD”. (5) 
ibo Ur RAE EL 的 特征 值 和 特征 向 量 ， 将 特征 值 从 
大 到 小 排列 ， 选 取 前 个 特征 值 对 应 的 特征 向 量 , 将 其 组 合成 
ANERE V , Bp V-[v.v,s ve], 其 中 vv yx 为 前 玉 个 
特征 值 最 大 的 特征 向 量 。 
IERE V 中 的 每 一 行进 行 单位 化 处 理 ， 得 到 矩阵 了 BU 
V, 
pe————, 6 
ÈV, 6 ( ) 


把 矩阵 了 的 每 一 行 看 成 天 维 空间 中 的 点 , 利用 传统 的 聚 类 
算法 , 这 里 采用 K-means 算法 05， 将 其 聚 成 玉 类 。 聚 类 的 结果 
盟 于 的 类 别 就 是 原来 文本 特征 分 别 所属 的 类 别 ， 得 


d 
A 
| 
a 
E 


到 类 别 和 矩阵 C= (e). 。 语 义学 习 的 过 程 归 纳 为 算法 1。 


训练 集 文本 特征 X? = (x), RAAK, ESA 


o, RREA. 
输出 : 


HKI C= fe}, 。 


i-l 


: 计算 相似 度 和 矩阵 M 
: 将 M 的 对 角 线 值 赋值 0，，m;; =0 
: ZARON M 
: 计算 归 一 化 矩阵 D 
: 计算 归 一 化 拉 普 拉 斯 图 矩阵 LL 
: 计算 工 的 特征 向 量 , 将 前 天 个 特征 值 最 大 的 向 量 按 列 组 
合成 一 个 矩阵 V ， 即 V -[v. v.s v] ， 0Yp Verts Vy 为 前 
KK 个 特征 值 最 大 的 特征 向 量 
7: 归 一 化 V 形成 矩阵 了 
8: 对 和 矩阵 P 按 每 一 行为 数据 点 , 进行 K-means 聚 类 得 到 C 
24 无 监督 深度 险 希 
本 文 的 STDVH 模型 包含 一 个 CNN 模型 。 无 监督 深度 哈 希 
是 一 个 拥有 9 层 的 卷 积 神经 网 络 ， 其 中 前 面 7 层 和 AlexNett19] 
当然 ， 其 他 的 CNN 结构 也 可 以 取代 AlexNet 在 STDVH 


ON Un d» U Ne 


日， 但 是 本 文 的 目的 不 是 研究 不 同 的 网 络 。 所 以 这 里 只 
AlexNet 作为 STDVH 模型 中 深度 哈 希 的 一 部 分 ， 对 于 其 他 
4 络 将 来 再 作 研 究 。 基 于 前 面 的 语义 学 习 结 果 ， 将 原始 图 像 作 
的 输入 ， 对 应 的 语义 类 别 作为 输出 。 
展示 了 STDVH 深度 哈 希 部 分 的 详细 配置 。 该 部 分 包 
含 5 个 卷 积 层 Conv 1-5) 和 4 个 全 连接 层 (full 6-9)。 每 个 卷 
积 层 从 以 下 几 个 方面 描述 :“filter 表 示 卷 积 滤波 器 的 数目 和 它 
们 接收 域 的 尺寸 以 及 通道 数 ， 形 如 “数目 尺寸 x 尺寸 x 通道 ”; 
“stride” 表 示 卷 积 步 幅 ,即将 滤波 器 应 用 于 输入 的 间隔 ;“pad” 表 
示 要 添加 到 输入 的 每 一 侧 的 像素 的 数量 ;*LRN” 表 示 是 否 应 用 
局 部 影响 归 一 化 层 (local response normalization, LRN); “pool” 
表示 下 采样 因子 ; 全 连接 层 中 的 “4096” 表 示 输 出 的 维度 ;“ZL” 表 
示 哈 希 码 的 长 度 ;“K” 表 示 文 本 语义 产生 的 类 别 数 。 所 有 层 的 激 


活 函 数 是 线性 整流 函数 (REctification Linear Unit, RELU). 
表 2 无 监督 深度 哈 希 的 网 络 参 数 

Layer Configuration 
convl filter 96 11x11x3, stride 4x4, pad 0, LRN, pool 2x2 
conv2 filter 256 5x5x48, stride 1x1, pad 2, LRN, pool 2x2 
conv3 filter 384 3x3x256, stride 1x1, pad 1 
conv4 filter 384 3x3x192, stride 1x1, pad 1 
conv5 filter 256 3x3x192, stride 1x1, pad 1, pool 2x2 
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full6 4096 
full7 4096 
full8 L 
full9 K 


2.5 基于 统一 框架 的 哈 希 学 习 

本 文 搭建 一 个 统一 的 无 监督 框架 将 语义 迁移 ， 
以 及 哈 希 函数 学 习 整 合 在 一 起 。 

根据 语义 学 习 的 结果 C ， 可 以 得 到 数据 点 的 相似 性 矩阵 
S 215] : 


相似 时 5; =0 。 定 义 如 下 : 


1 ci =c, 
$,— (7) 


A 中 sy e(l]. x x, 相似 时 55 71, xx 不 


0 otherwise. 


l 


HFA EKIA RA E Y = (y, e RP", E ORE 
相似 矩阵 S = [s,) 的 最 大 似 然 估计 如 下 ; 


CGO sal; 
p(s; 1Y) E l -o(Q,) 


sj 0, 


(8) 
15 1 " 
其 中 : O,--yjy;: 0(Q)= 一 一 so- 。 这 里 要 注意 的 是 
AI ad lte“ 
y; eí-Lll. 
通过 采取 负 对 数 似 然 ， 可 以 得 到 以 下 优化 问题 : 
miig == p(S| Y) - -2.1og p(s, | Y) 
| (9) 


2-3 (5,9, -logd + e™)). 
s; eS 


看 的 优化 问题 式 (9) 可 以 使 得 两 个 相似 点 之 间 的 
汉 明 距离 尽 可 能 地 小 ， 同 时 使 得 两 个 不 相似 点 之 间 的 汉 明 距离 
这 符合 无 监督 图 像 哈 希 的 目的 。 

本 文 以 一 种 离散 的 方式 来 解决 这 个 问题 ， 将 其 转换 成 以 下 


等 价 形式 : 


minz, — -5 (s;Z; -log(1- e” )) 
Y.U seS (10) 


sf. Uu, —-y,U,€ R^, y, e(-L1y ,vi -L2,-.. N. 


1 N 
其 中 Zszwu; U-(ujy,: U 是 二 值 哈 希 码 y, 在 松弛 条 


件 下 的 连续 状态 表达 ,， I 
哈 希 码 。 

为 了 优化 问题 式 (10), 可 以 通过 将 式 (10) 中 的 等 式 约束 移 到 
正则 化 项 来 优化 正则 化 问题 。 


JAT y; ==sgn(u;) 便 可 得 到 离散 化 的 


Zi 
minr, = p —log(l- e'*)) 
i (11) 


2 
, 
2 


N 
«m» |y， =u, 
i=l 


其 中 : 7 是 正则 化 项 。 
传统 的 哈 希 方法 通常 依赖 于 手工 特征 提取 ， 而 且 哈 希 学 习 


录用 稿 


阶段 与 特征 提取 是 分 离 的 ， 造 成 提取 的 特征 并 不 能 与 哈 希 过 程 
最 优 适 配 ， 这 些 特征 往往 不 能 保持 语义 上 的 相似 性 。 为 了 能 使 
图 像 的 特征 表示 和 哈 希 码 可 以 互相 促进 提升 ， 将 深度 哈 希 与 目 
标 函 数 对 应 起 来 ， 令 

u,=W' G(x ;0) +v, (12) 
其 中 : 9 表示 深度 哈 希 部 分 的 CNN 网 络 前 面 7 层 的 所 有 参数 ; 
6(x ;9) dez EL x? 的 第 7 层 的 输出 ，W eR 是 一 个 权 
[8 4BEE:; ve R” 是 偏 移 向 量 , 这 表示 在 深度 哈 希 部 分 用 一 个 权 
(EERE W 和 偏 移 向 量 v 的 全 连接 层 将 图 像 特征 部 分 和 语义 迁 
移 结果 连接 起 来 。 那 么 问题 表征 如 下 : 


Wg p —log(l+e ")) 


tH 
这 样 ， 就 将 语义 迁移 、 


同一 个 框架 中 。 
在 STDVH 模型 中 ,学习 部 分 的 参数 包含 W,v,9 和 YY 。 采 
用 小 批量 的 学 习 策 略 ， 在 每 次 迭代 中 ， 从 整个 训练 集中 采样 小 
部 分 数据 点 ， 然 后 根据 这 些 采样 点 进行 学 习 。 使 用 交 蔡 学 习 的 
亿 化 方法 ， 用 固定 的 其 他 参数 来 优化 一 个 参数 。 

对 于 y;， 直 接 优化 如 下 : 

y; ^ sgn(u,) = sgn(W'g(x(?;0) + v). (14) 

对 于 其 他 参数 W,v 和 0 ,采用 反 向 传播 算法 进行 学 习 ， 按 
照 式 (15) 计算 关于 ui 的 损失 函数 的 导数 。 
" iX sonia PE St (15) 

2n, - y;). 


à (13) 
lv, - (W'(x(?;9)- -| 
2 


哈 希 函数 学 习 以 及 哈 希 码 学 习 整 合 


1 
其 中 : a; =aGuuj) 


然后 ， 利 用 反 向 传播 分 别 更 新 参数 W. v RIO : 


OT WW. y OT T 
L—-4(x/:;00—9 , 
aw $(x; o (16) 
Or Or 
Ov Ou, (17) 
Or 2 Or 
G(x;0) Ou, ( 8) 
算法 2 深度 图 像 哈 希 学 习 
输入 : 
训练 集 图 像 X" = {x"}”， ， 语 义 相似 度 S={s,} 。 
输出 : 


参数 W,v,9 和 YY。 
初始 化 : 初始 深度 哈 希 模型 CNN 网 络 的 参数 2 ,通过 从 均 
EN 0 和 方差 为 0.01 的 高 斯 分 布 随机 采样 来 初始 化 W 和 
v 的 每 一 项 。 
重复 

M x 中 随机 抽样 小 批量 点 ， 
以 下 操作 : 
1: 通过 向 前 传播 计算 17:0) ; 
2: 计算 u= W'ó(xi^;9) v 
3: 利用 Vi =sgn(u) 计算 x 的 二 值 码 ; 


对 每 个 采样 点 XP 执行 


(i 
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4: 通过 公式 (16)(17)(18) 计 算 图 像 x” 的 偏 导 ; 

5: 利用 反 向 传播 更 新 参数 W,v 和 0 ; 

结束 固定 的 迭代 次 数 
全 希 函 数学 习 部 分 归纳 为 算法 2。 完 成 学 习 过 程 后 ， 只 能 

得 到 训练 数据 中 的 点 的 哈 希 码 。 仍 然 需要 执行 样本 外 扩展 来 预 

测 未 出 现在 训练 集中 的 点 的 哈 希 码 。STDVH 的 深度 哈 希 框架 


可 以 自然 地 扩展 到 样本 外 。 对 于 任何 图 像 xy e XP ， 使 用 下 面 
的 哈 希 函数 来 预测 它 的 哈 希 码 : 


y,-h(x,) —sgn(W'ó(x 0) ^ v). (19) 


3 ”实验 构造 


3.1 实验 数据 集 

为 了 验证 基于 语义 迁移 的 无 监督 深度 哈 希 的 有 效 性 ， 本 文 
在 Wiki 7 fl MIR Flicker05 这 两 个 公开 可 用 的 图 像 数据 集 上 进 
行 了 综合 实验 。 所 有 的 数据 集 都 是 由 图 像 和 文本 对 组 成 ， 在 过 
去 的 工作 中 被 广泛 用 于 评价 多 媒体 检索 的 性 能 。 在 相同 的 设置 
下 ， 所 有 的 数据 集 都 被 划分 为 查询 集 、 学 习 集 和 数据 库 集 。 这 
个 实验 设置 是 符合 CBIR 的 实际 应 用 场景 。 

表 3 实验 数据 统计 


数据 集 Wiki MIR Flickr 
数据 大 小 2866 25000 
查询 大 小 1000 1500 
训练 大 小 1500 2000 
视觉 形式 原始 图 像 原始 图 像 
文本 形式 文本 主题 文本 词 袋 
Wiki 包含 了 10 种 语义 类 别 的 2 866 对 多 媒体 文档 ， 这 些 
数据 集 从 维基 百科 上 搜集 得 到 的 。 视 觉 内 容 以 原始 图 像 表 示 ， 


文本 内 容 用 通过 潜在 狄 利克 雷 分 配 生 成 的 10 维 主题 向 量 表示 。 
对 于 Wiki 数据 集 ， 由 于 图 片 已 经 标记 成 10 种 不 同 的 类 别 ， 该 
数据 集中 的 图 像 只 有 在 同一 类 别 时 才 认 为 是 相关 的 。 

MIR Flickr 包含 了 从 Flickr 得 到 的 38 个 类 别 的 25 000 张 
像 。 每 张 图 像 都 有 文本 标签 。 为 了 排除 与 图 像 内 容 不 相关 的 
标签 的 影响 , 将 出 现 少 于 50 次 的 文本 标签 删除 ,这样 总 共产 生 
了 457 个 标签 的 词汇 表 09]。 视 觉 内 容 以 原始 图 像 表 示 ， 文 本 内 
容 以 457 维 二 元 向 量 表示 。 每 一 维 都 表示 了 对 应 标签 是 否 附属 
于 该 图 像 。 由 于 MIR Flickr 中 的 图 像 通常 属于 多 个 类 别 ， 所 以 
只 有 当 它 们 至 少 属于 一 个 共同 类 别 的 时 候 才 认为 是 相关 的 。 

3.2 评价 标准 
本 文 实验 研究 中 ， 平 均 查 准 率 均值 (mAP) 被 采用 为 评价 指 
标 [ 和 时。 对 于 一 个 给 定 的 查询 ， 计 算 平均 精度 (AP) 根 据 公式 


PA 


P 


Ful 


1 œR 
AP X v(neQ).dp: R 是 返回 结果 的 个 数 ，NR 是 返 
r=1 


可 结果 中 的 相关 图 像 的 数量 ; w(7) 表示 的 精度 最 高 7 检索 图 像 ， 
它 被 定义 为 图 像 检索 的 相关 图 片 和 图 像 r 的 相关 查询 的 数值 比 
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例 ; eG) 是 指标 函数 ， 如 果 第 x 张 图 片 是 相关 查询 就 等 于 1, 

反之 等 于 0。mAP 被 定义 为 所 有 查询 的 AP 的 平均 值 ， 其 值 越 
意味 着 检索 性 能 更 好 。 在 实验 中 ， 将 RR 设 为 50 来 获取 结果 。 

此 外 ， 还 给 出 了 Precision-Scope 曲线 以 反映 检索 性 能 相对 于 检 

索 图 像 的 数量 的 变化 。 

3.3 比较 方法 


该 方法 是 专门 为 CBIR 设计 的 ， 没 有 使 用 任何 有 监督 信息 
的 图 像 。 因 此 ， 为 了 比较 公平 ， 本 文 比较 有 一 些 最 先进 的 单 模 


态 与 跨 (多 ) 模 态 哈 希 方法 。 用 于 对 比 的 单 模 态 哈 希 方法 有 和 迭 
代 量 化 (ITQ)P9、 局 部 敏感 哈 希 (LSH)! PCA 哈 希 (PCAH) 
PU、 谱 哈 希 (SH) 回 、 随 机 旋转 PCA 哈 希 (PCA-RR) PR 
度 敏 感 哈 希 (DSH)P3。 用 于 对 比 的 无 监督 跨 模 态 哈 希 包括 典型 
相关 分 析 哈 希 〈CCA) 中、 协同 矩阵 分 解 哈 希 (CMFH) M, 
其 中 CMFH 通过 多 种 模式 共享 学 习 一 个 潜在 的 语义 子 空间 , 视 
觉 和 文本 特征 都 被 映射 成 一 个 统一 的 哈 希 码 。 

需要 注意 的 是 ，CCA 和 CMFH 可 以 为 查询 视觉 图 像 和 文 
本 生成 哈 希 码 。 实验 的 目的 是 为 了 测试 其 性 能 CBIR, 因此 本 文 
去 掉 了 文本 的 哈 希 码 。 在 这 种 情况 下 ,所 有 比较 方法 的 CBIR 的 
检索 过 程 均 基于 视觉 哈 希 码 的 汉 明 距离 。 所 有 参数 的 比较 方法 
是 根据 相关 文献 和 报告 进行 调整 最 佳 的 性 能 。 
3.4 实现 细节 
在 实验 中 , 通过 多 次 对 比 实验 选择 参数 .对 于 Wiki 数据 集 ， 
选取 了 谱 聚 类 数量 及 =10,， 相 似 度 矩 阵 中 超 参 数 o —0.1, 相似 
度 矩 阵 的 稀疏 度 4 =1， 这 种 条 件 下 性 能 最 佳 。 对 于 MIR Flickr 
数据 集 ，K =15，o =1， 由 于 文本 数据 为 二 元 向 量 ， 其 相似 度 
矩阵 足够 稀疏 ， 在 提取 语义 时 无 需 稀 玻 化 ， 所 以 选取 稀 玻 度 
4=0。 在 实验 中 , 为 了 观察 性 能 所 有 数据 集 上 的 哈 希 码 长 度 工 


— 


的 范围 是 [16,32,64,128] 检索 范围 设置 为 100~1000, 步 长 是 100. 


在 深度 哈 希 部 分 ， 首 先 将 所 有 图 像 的 大 小 调整 为 227x227 
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dA 用 于 比较 的 无 监督 哈 希 方法 的 mAP 


Wiki MIR Flickr 

方法 
l6bit 32bit 64bit 128bit l6bit 32bit 64bit 128bit 
ITQ 0.2088 0.2067 0.2151 0.2233 0.6808 0.6993 0.7027 0.7157 
LSH 0.2012 0.2061 0.2112 0.2143 0.6603 0.6755 0.7025 0.7100 
PCAH 0.2169 0.2164 0.2141 0.2039 0.6800 0.6780 0.6825 0.6865 
SH  . 0.2002 0.2090 0.1968 0.2130 0.6756 0.6819 0.6767 0.6734 
PCA-RR 0.2107 0.2085 0.2085 0.2177 0.6758 0.6842 0.7042 0.7176 
DSH 0.2107 0.2096 0.2087 0.2219 0.6609 0.6713 0.6921 0.7072 
CCA 0.2078 0.2019 0.1959 0.1932 0.5909 0.6004 0.6147 0.6322 
CMFH 0.2209 0.2228 0.2321 0.2319 0.6821 0.6909 0.7121 0.7171 
STDVH 0.3370 0.3421 0.3518 0.3632 0.6990 0.7182 0.7460 0.7575 

WK MIR Flickr 


Precision @ 128 bits 
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The number of retrieved samples 
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以 文本 特征 和 图 
哈 希 模型 ， 将 STDVH 的 性 能 与 忽略 文本 信息 
首 特 征 的 性 能 进行 比较 。 图 
看 出 ， 语 义 迁 移 可 以 提高 CBIR 的 检索 性 能 。 
因 是 ， 在 语义 的 帮助 下 ， 图 像 与 图 像 和 潜在 
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128bit 哈 希 码 长 度 的 Precision-Scope 


语义 迁移 对 视觉 哈 希 的 影响 
本 文通 过 实验 来 验证 文本 语义 迁移 对 提高 视 
像 特征 的 谱 聚 类 结果 来 


3 给 出 了 详细 


600 800 1000 
retrieved samples 


觉 哈 希 语义 有 


的 实验 


线 


车 建 深度 视 
的 区 别 仅 考虑 
de 


其 表现 更 好 的 原 


BR: 然后 直接 使 用 原始 图 像 作为 输入 ， 将 对 文本 特征 进行 谱 
聚 类 产生 的 语义 信息 作为 输出 。 采 用 已 经 在 ImageNetl16] 数 据 集 
上 预先 训练 的 AlexNet 网 络 来 初始 化 STDVH 框架 的 前 7 层 。 
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STDVH 和 所 有 比较 的 方法 在 不 同 数据 集 上 的 不 同 哈 希 码 
长 度 的 mAP 的 结果 如 表 4 所 示 。 两 个 数据 集 上 128 bit 的 
线 如 图 2 所 示 。 根 据 所 得 到 的 结果 ， 可 以 清 
楚 地 看 到 STDVH 超越 了 所 有 比较 方法 。 随 着 哈 希 码 长 度 的 增 
加 , STDVH 的 检索 性 能 稳定 增强 , 然而 对 于 其 他 一 些 被 比较 的 
方法 来 说 ， 哈 希 码 的 检索 性 能 随 长 度 增加 的 改善 并 不 明显 ， 说 
8j STDVH 学 习 到 的 哈 希 码 具 有 较 少 的 信息 元 余 。 此 外 ， 在 使 
较 少 的 哈 希 码 位 数 时 ，STDVH 可 以 获取 比 其 他 使 用 更 长 位 
数 的 方法 更 好 的 性 能 。 原 因 在 于 ， 在 文本 语义 迁移 的 帮助 下 ， 
STDVH 可 以 将 更 多 的 语义 信息 压缩 成 短 哈 希 码 。 这 意味 着 基 
T STDVH 的 CBIR 可 以 在 相同 的 性 能 水 平 下 拥有 更 快 的 检索 
过 程 和 更 低 的 存储 成 本 。 


Precision-Scope 


P: 


系 可 以 更 好 地 进行 建 模 和 关 
进 制 哈 希 码 中 有 效 地 编码 。 在 不 同 的 数据 旨 


YE 


< 同 主题 之 
居 。 提 取 的 有 价值 的 语义 可 以 在 二 
0 哈 希 码 长 度 上 的 


间 的 关 


性 能 差距 是 不 同 的 ， 主 要 是 由 于 文本 对 视觉 哈 希 的 辅助 效果 不 
同 造 成 的 。 
0.4 LE - MIR Flickr 
I STDVH 08 Eso 
Il visual Only 


Bi visual Ont 
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€ 0. 
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图 3 两 个 数据 集 上 语义 迁移 的 影响 


训练 集 大 小 的 影响 


64 bits 128 bits 


本 节 构 造 实 验 来 观察 MIR Flickr 上 训练 集 大 小 的 性 能 变化 。 
将 哈 希 码 的 长 度 设 定 为 128 bit， 并 在 训练 集 大 小 从 1 000 变 为 


10 000 时 记录 性 能 变化 。 表 5 显示 ] 


数据 被 利用 


义 不 足 。 


时 ，STDVH 的 mAP 略 有 增加 ， 
习 哈 希 函数 的 稳定 性 。 通 过 进 
限 的 情况 下 ， 文 本 的 语义 迁移 可 以 有 效 地 缓解 
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。 当 更 多 的 训练 
说 明了 STDVH 学 
， 在 训练 数据 有 
觉 哈 希 码 的 语 


录用 稿 
表 5 MIR Flickr 关于 训练 集 大 小 的 性 能 变化 
训练 集 大 小 IK 2K 3K 4K 5K 
STDVH 0.7454 0.7575 0.7671 0.7716 — 0.7831 
训练 集 大 小 6K 7K 8K 9K 10K 
STDVH 0.7872 | 0.7900 0.7973 0.7999 0.8012 
43 ”参数 灵敏 度 
本 节 通 过 实验 来 观察 STDVH 中 参数 对 性 能 变化 的 影响 。 


天 表示 文本 信息 谱 聚 类 中 的 聚 类 类 别 数 ，c 为 超 参 数 ，4 为 相 
EE E DEB LEE » AERE EB EE HK BE OE 7 128 bit， 并 在 Wiki 
数据 集 上 进行 实验 。 测 试 参数 玉 从 2 到 12 变化 ， 参 数 a 从 数 
量 级 (0.01,0.1,1,10,100) 的 变化 , 参数 4 从 0 到 5 的 范围 变化 。 

在 实验 中 ， 固 定 一 个 参数 并 观察 剩 下 两 个 参数 的 变化 。 详 细 的 
实验 结果 如 图 4 所 示 。 从 图 4(a) 可 以 看 出 , 当 聚 类 数 K =10， 

FRAUE A =1 时 性 能 相对 要 好 很 多 可 以 看 出 ， 当 到 
达 某 一 点 即 o=1 时 性 能 最 佳 。 


in| 


从 (bo 


o2 i 
0.1 02 
ME 20 s MT 0.1 1 10 100 
(a) o0 20.1 (b) =1,K =10 
R4 Wiki 数据 集 上 STDVH 的 参数 天 ,a,4 的 性 能 变化 
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大 多 数 现 有 针对 CBIR 的 哈 希 方法 只 考虑 了 视觉 特征 。 它 
们 忽略 了 相关 文本 中 涉及 的 有 价值 的 语义 。 本 研究 提出 了 一 个 
有 效 的 哈 希 框架 STDVH。 利 用 图 像 的 相关 文本 提取 语义 迁移 
到 无 监督 视觉 哈 希 的 学 习 中 。 构 建 深 度 卷 积 神经 网 络 将 额外 的 
判别 语义 信息 整合 到 视觉 哈 希 代码 和 函数 中 ， 同 时 也 保留 了 图 
像 视觉 的 相似 性 。 离 线 学 习 可 以 有 效 地 利用 文本 中 涉及 的 语义 ， 
而 在 线 哈 希 只 需要 视觉 图 像 作为 输入 ， 符 合 CBIR 实际 应 用 场 
景 的 要 求 。 在 几 个 标准 图 像 数据 集 上 进行 综合 实验 ， 验 证 了 在 
文本 的 辅助 下 视觉 哈 希 的 性 能 可 以 得 到 提高 ， 与 一 些 现 有 的 哈 
希 技术 相 比 ，STDVH 有 着 更 好 的 性 能 。 
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